R Markdown

Il presente documento è scritto in R Markdown. Markdown è una semplice sintassi di formattazione per la creazione di documenti HTML, PDF e MS Word. Questo documento è stato compilato usando Rstudio, il più diffuso IDE per R. Per maggiori dettagli sull’utilizzo di R Markdown, vedere http://rmarkdown.rstudio.com.

I dataset utilizzati provengono dalle banche dati Inps ed Istat, (open data e dataset pubblicati)

Per la scelta dei dati ho preso spunto da un report trovato sul vostro sito e dalla conoscenzad del settore.

I dati utilizzati non sono collegati al vostro studio ma hanno solo lo scopo di illustrare alcune possibilità di descrizione, analisi e visualizzazione dei dati tarmite R ed RStudio. Si tratta di dataset che presentano dati aggregati quindi non adatti per molti tipi di analisi. Il primo dataset preso in esame proviene dall’inps e contiene i dati sui Lavoratori in Italia per Territorio (Provincia e regione), classe di età, sesso posizione lavorativa e cittadinanza

La prima tabella è una descrizione ed un sommario del tipo di dati presenti nel dataset

Data summary
Name ID_5651
Number of rows 215339
Number of columns 10
_______________________
Column type frequency:
character 6
numeric 4
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Regione 0 1 5 28 0 21 0
Provincia 0 1 4 35 0 104 0
Cittadinanza 0 1 10 15 0 2 0
Classe età 0 1 7 11 0 11 0
sesso 0 1 6 7 0 2 0
Posizione Prevalente 0 1 9 26 0 9 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Anno 0 1 2016.49 1.70 2014 2015.0 2016 2018 2019 ▇▅▅▃▃
Lavoratori 0 1 701.36 3044.94 1 12.0 85 393 114124 ▇▁▁▁▁
rr_cumulo_Sum 0 1 15579198.86 93153397.03 0 77649.5 704278 5272842 5573101806 ▇▁▁▁▁
ss_cum_total_Sum 0 1 29955.75 136415.71 1 332.0 2638 15118 5517162 ▇▁▁▁▁
## Questi i valori unici per Posizione lavorativa
## [1] "Artigiano"                  "Autonomo agricolo"         
## [3] "Commerciante"               "Dipendente privato"        
## [5] "Domestico"                  "Operaio agricolo"          
## [7] "Parasubordinato"            "Voucher/Lavoro occasionale"
## [9] "Dipendente pubblico"

Esplorazione dati Inps

nel primo grafico ho deciso di usare un boxplot per visualizzare il numero di lavoratori Comunitari ed Extracomunitari per posizione lavorativa nel 2019. I singoli data point sono gli aggregati per provincia, anno e sesso, vista la differenza anche notevole che può esserci fra province con grandi città e territorio scarsamente popolati ho trasformato i dati sull’asse delle x in logaritmi a base 10

## ### la tabella riporta lo stesso tipo di dati
## ### questa è una tabella più dettagliata dallo stesso dataset, è possibile ordinarla e filtrarla

nel dataset sono riportati i dati aggregati per territorio una modalità di visualizzazione può essere usata una treemap

map plot

Il grafico successivo mostra attraverso la mappa d’italia divisa per provincie la percentuale di lavoratori stranieri sul totale dei lavoratori per gli anni dal 2014 al 2019 questo tipo di visualizzazione rende immediatamente evidente la variazione del dato negli anni

###new dataset

infer explor

Il secondo dataset l’ho creato unendo i dati sui tassi di occupazione, attività e disoccupazione scaricati dalle banche dati Istat

il primo grafico mette a confronto il tasso di occupazione e quello di attività per sesso cittadinanza e titolo di studio, i dati provengono da rilevazioni trimestrali dal 2016 al 2020 e sono riferiti a tutto il territorio nazionale

in questa sezione abbozzo un analisi inferenziale seguendo i tread individuati nei dati il primo grafico è un grafico a dispersione

## si possono notare i dati raggruppati in piccoli cluster, la forma dei punti sul grafico corrisponde ai diversi titoli di studio che soprattutto per gli italiani corrispondono grossolanamente ai cluster visibili
##  la prima indicazione che possiamo trarne è che per entrambi i gruppi il titolo di studio sembra una variabile che determina una differenza rispette alle altre due 
##  la seconda indicazione evidente è che la retta di regressione lineare degli italiani è più in alto rispetto a quella degli starnieri segnalando che apparentemente a parità di titolo di studio gli italiani sono occupati in misura maggiore rispetto agli stranieri

proviamo a verificare questa assunzione visualizzando la distribuzione del rapporto fra tasso di occupazione (occupati/tot popolazione) e tasso di attività (forza lavoro/tot popalazione) la nuova variabile esprime il rapporto fra occupati e forza lavoro vediamolo nel dettaglio per titolo di studio, cittadinanza e sesso

il grafico sembra confermare la prima impressione ma nello stesso tempo mostra delle importanti differenze per titolo di studio, il rapporto sembra essere fortemente a vantaggio degli italiani per chi possiede un titolo di studio più alto mentre per i titoli più bassi o nessun titolo la situazione è invertita per verificare se la differenza fra i valori medi delle distribuzioni è statisticamente significativa esguiremo Il test t di Student per ogni gruppo di titolo di studio mettendo a confronto italiani e starnieri

## [1] "licenza di scuola elementare, nessun titolo di studio"
## 
##  Welch Two Sample t-test
## 
## data:  EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = -6.5697, df = 68.621, p-value = 8.101e-09
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.06620229 -0.03535930
## sample estimates:
## mean of x mean of y 
## 0.7768056 0.8275864 
## 
## [1] "licenza di scuola media"
## 
##  Welch Two Sample t-test
## 
## data:  EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 0.61011, df = 75.813, p-value = 0.5436
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.008672599  0.016331890
## sample estimates:
## mean of x mean of y 
## 0.8520506 0.8482210 
## 
## [1] "diploma"
## 
##  Welch Two Sample t-test
## 
## data:  EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 7.9855, df = 65.485, p-value = 2.954e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.03121369 0.05202940
## sample estimates:
## mean of x mean of y 
## 0.9012849 0.8596634 
## 
## [1] "laurea e post-laurea"
## 
##  Welch Two Sample t-test
## 
## data:  EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 8.389, df = 46.604, p-value = 7.185e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.04012501 0.06544758
## sample estimates:
## mean of x mean of y 
## 0.9427899 0.8900036

Il test conferma per 3 gruppi su 4 che la differenza è significativa, ovvero essere italiano o straniero fa la differenza

proviamo infine a visualizzare il tasso di disoccupazione nel tempo rispetto alle due popolazioni considerate finora, sempre per titolo di studio

over time

boxplot

network

infine allego due immagini tratti da lavori fatti come esempio sulle possibilità di utilizzo delle reti per visualizzazioni e soprattutto analisi

network test autismo2

network VCG Liver